#compresión de modelos

Redondeo Adaptativo que Preserva el Modelo

Descubre YAQA, el algoritmo de redondeo adaptativo que reduce el error de cuantización un 30% sin sobrecarga. Preserva la distribución del modelo original.

2026-06-04 · 1 min

PrimeSVT: Poda Automática con Memoria para Transformers de Visión Spiking

Descubre cómo PrimeSVT automatiza la poda de Transformers de Visión Spiking, reduciendo memoria un 26.68% con mínima pérdida de precisión. Optimiza tus modelos.

2026-06-03 · 2 min

WaterSIC: Cuantización lineal casi óptima (teoría de la información)

WaterSIC: algoritmo de cuantización casi óptimo que supera a GPTQ. Nuevo récord en LLMs Llama y Qwen para 1-4 bits. ¡Mejora la eficiencia!

2026-06-03 · 2 min

¿Qué aprenden los estudiantes? Análisis de características en KD

Analizamos el aprendizaje de características en destilación de conocimiento y presentamos Confusion Distillation, una auto-destilación eficiente que supera a otros métodos en 1.2%.

2026-06-03 · 2 min

Compress then Merge: cómo fusionar LoRAs en un único adaptador

Descubre cómo fusionar múltiples LoRAs en un solo adaptador de bajo rango con Compress-then-Merge, mejorando eficiencia y rendimiento sin perder estructura.

2026-06-03 · 3 min

Cuantización y características interpretables: análisis con autoencoders dispersos

La cuantización no destruye todas las características interpretables: un análisis revela que el 62% persiste en INT6, pero las métricas engañan.

2026-06-03 · 2 min

PSViT: Metodología de poda estructural para Spiking Vision Transformers

Aprende cómo PSViT comprime SViT con poda estructural: 22% menos memoria y alta precisión.

2026-06-03 · 3 min

Poda de redes neuronales post-entrenamiento con curvatura de grafos

Descubre cómo la curvatura de grafos permite podar redes neuronales sin perder precisión. Técnica innovadora basada en Ollivier-Ricci para identificar conexiones clave.

2026-06-03 · 2 min

Float8@2bits: compresión de modelos sin datos vía codificación de entropía

EntQuant comprime modelos de 70B parámetros en solo 10 minutos sin datos de calibración, alcanzando SOTA en compresión extrema a 2 bits con codificación de entropía.

2026-06-03 · 1 min